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@ Eenvoudig 


tekst herkennen 


Vijf jaar geleden waren we al blij als we ingescande documenten met een nauwkeurigheid van 95% 
konden omzetten in tekst. Vandaag is er veel meer mogelijk, maar het aanbod is verschrompeld tot 
drie hoofdrolspelers, die we in deze test letterlijk tegen het licht houden. # orx scuoors 
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of optische tekstherkenning) kan je in een 

digitale afbeelding teksten en plaatjes van 
elkaar scheiden en afzonderlijk inlezen. Je scant 
bijvoorbeeld een tekst in, en even later heb je een 
Word-, Excel- of pdf-document op je bureaublad 
staan dat je inhoudelijk kan aanpassen. Het OCR- 
programma analyseert namelijk de afbeelding en 
gaat daarbij op zoek naar herkenbare tekens en zet 
die om in digitale tekst. Niet alleen het lettertype, 
maar ook de taal en soms zelfs de opmaak worden 
zo overgezet. OCR is met andere woorden het mid- 
del bij uitstek in de strijd tegen de papierberg. 
De drie hoofdrolspelers gaan erg ver met hun pro- 
ducten. OmniPage van het Amerikaanse Nuance 
(het voormalige ScanSoft), FineReader uit de Rus- 
sische ABBYY-stal en Readiris Pro van de Belgische 
beursgenoteerde I.R.IS. Group verwerken zelfs met 
gemak lijvige pdf-documenten die je van het inter- 
net laadt. Alle drie herkennen ze tekst in meer dan 
125 talen en bevatten ze snufjes die tekstherken- 
ning tot op een hoog niveau tillen. 


DEE OCR (‘Optical Character Recognition’ 


60 e Clickx Magazine e 28 oktober 2008 


o grasp) TAHyTeCH 38 
PE araeMOCTb: within reach, g 
r4eMOCTu; out of reach, BHe Aocará 
a river) Tevênue: the upper reaches 
Hee TEHÊHHe Bónru; Bepxósbe 


II} 0"; 


active adj. PeaKTUBHBIA. 
re or ”. peákTop. 


„onKoBdTb; NOHMMÁTB, 3, 4 


opte on 4, Brit. (study) u 
„rp vs. 1, (have a 


AT Le) 
np 7 sogrom reads as follo 
100 2, (admit of 
‚kilns 


‘MOJb. 
jus) NPOxÓPNH 


rerúr. 2, (rapa pe ‚} 
book) xpec reet 
aniac, OyAHoin | readership n. KPyr “urareren. rapport; 
renbHbIA —n readily adv 1. (willingly, promptly) « be 
hl en reapprais 
', (rape) pact readiness „ rorôanocrts All is in —rea 
Ibi TÔBO Hold 1n readiness, Aepxárp Bt: rear n.1 
ed. unproces reading n 1, (act of reading; recital) Â: XBOCT. 3 m 
pabôranHbie pretation) TONKOBâHMe 3, (indi Ras; 3âAHee Ko 
vsi. wenk. | xasdnne, orcver —reading desk C3âau. 3, (1 


Readiris Pro 11.1 


Nauwkeurige tekstherkenner 


Van Readiris zijn er twee versies op de markt: 
de Corporate Edition en de Pro-versie. Die 
laatste richt zich tot de veeleisende thuisge- 
bruiker en kleine bedrijven. De installatie is 
alvast een fluitje van een cent; na enkele mi- 
nuten draait de Nederlandse versie vlekkeloos 
op ons systeem. Het programma herkent tekst 
in 126 talen. Zelfs de Griekse, Baltische en Cyril- 
lische karaktersets vormen geen probleem, ook 
niet als er op één pagina verschillende talen 
voorkomen. In het begin gebruik je best de 
wizard, die je doorheen de verschillende stap- 
pen leidt. Ofwel open je een afbeelding die je 
vooraf hebt gescand, ofwel spreek je de scan- 
ner rechtstreeks aan vanuit het programma. De 
toepassing herkent afbeeldingen in jpg-, bmp- 
of tif-formaat. Erg handig is ook dat je met 
Readiris Pro een pdf-document van verschil- 
lende pagina’s (maximum 50) in één enkele 
opdracht kan laten inlezen en omzetten in 
bijvoorbeeld Word of pdf. Wil je meer dan 50 
pagina's door de herkenningsmolen draaien, 
dan ben je aangewezen op de Corporate-versie. 
Readiris Pro heeft trouwens nog meer in petto 


om meerdere documenten tegelijk te verwer- 
ken. Zo kan je een tijdsinterval instellen om 
tijdens het scannen van een boek pagina na 
pagina om te slaan en op de scanner te leg- 
gen. 


Streepjescodes 


Indrukwekkend is de mogelijkheid om een sto- 
rende achtergrondkleur te onderdrukken, zo- 
dat de tekst op die pagina’s zich veel nauwkeu- 
riger laat analyseren. Je kan met Readiris Pro 
11.1 zelfs streepjescodes omzetten. Naar eigen 
zeggen kan het ook handschrift herkennen, 
maar dat draaide in onze test iets anders uit. 
Zolang de letters niet aan elkaar geschreven 
zijn, lukt het nog wel, maar dat is bij de 
meeste handschriften natuurlijk niet het geval. 
Je kan het programma wel trainen, maar over- 
typen lijkt ons toch net iets sneller. 

De nauwkeurigheid waarmee dit OCR-pakket 
tekst herkent, is indrukwekkend. Zelfs tabellen 
en opgemaakte tekst met daartussen foto's of 
andere illustraties, vormen geen enkel pro- 
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bleem. Readiris zorgde voor een quasi perfecte 
output in Word, Excel, html en de nieuwe Mi- 
crosoft-formaten WordML en SpreadsheetML. 
Ook slaagt het programma erin om ingescand 
materiaal om te zetten naar pdf-documenten 
die zich laten doorzoeken op inhoud. 
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« Erg snel en accuraat, leest ook streepjescode 
v Geen erg goede handschriftherkenning 


Nuance OmniPage 16 


Razendsnel omzetten 


Ook OmniPage heeft zijn sporen verdiend in de 
OCR-wereld. Wij ontvingen de dure Professional 
Edition, maar die bevat wel twee extra pakket- 
ten: de documentenmanager ScanSoft Paper- 
Port Standard 11 en een pdf-converteerder 
ScanSoft PDF Create. 

Ook OmniPage herkent probleemloos teksten 
uit boeken, magazines, kranten, enzovoort. 
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OmniPage 16 


Eg 


Eerst gaat het programma via de wizard Scan- 
NERINSTELLINGEN kijken of jouw scantoestel in zijn 
database zit. Is dat zo, dan kan je meteen aan 
de slag; anders zal het programma aan de hand 
van een reeks tests de optimale instellingen 
kiezen. 

Het programma werkt in drie weergavevormen. 
De klassieke interface lijkt op die van de vorige 
versie en is dus vooral voor gebruikers die 
bekend zijn met het programma. Geavanceerde 
gebruikers zijn wellicht meer gebaat bij de 
flexibele weergave. Die werkt met tabbladen, 
zodat je een goed overzicht hebt op de verschil 
lende functies. Wil je zonder al te veel moeite 
tekst omzetten, dan gebruik je de Snelle con- 
versie-weergave. OmniPage was duidelijk de 
snelste van de drie. 


Archiveringsassistent 


Je kan ingescande tekst markeren of zwart 
maken om hem te verbergen voor nieuwsgie- 
rige ogen. OmniPage beschikt ook over een 
functie om rechtstreeks foto’s van de digitale 
camera te halen. In de optie JuripiscH DocUMENT 


kan je niet alleen nummeringen weglaten, maar 
is het ook mogelijk om een handtekening of 
stempel van een document te verwijderen. 

Met de archiveringsassistent maak je werksets 
aan, zodat je bepaalde documenten op steeds 
dezelfde manier verwerkt. Daarvoor moet je je 
wel eerst identificeren aan de hand van een 
streepjescode. Wie veel formulieren moet ver- 
werken, kan ervoor zorgen dat alleen de invul- 
zones worden gelezen, waarna die gegevens 
worden weggeschreven als door komma's ge- 
scheiden tekstbestanden. Zo’n bestand kan je 
dan achteraf eenvoudig importeren in een da- 
tabase. Leggen we een workshop uit Clickx op 
de scanner en kiezen we de volautomatische 
functie, dan plaatst het programma de afbeel- 
dingen, de tekst, de opmaak en zelfs (ongeveer) 
het juiste lettertype in een Word-bestand. 
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… Erg soepele workflow, snel 

v Enkele snufjes die de prijs van de standaard- 
versie optrekken, horen eerder thuis in een 
zakelijk pakket 


www.nuance.be 
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ABBYY FineReader 9.0 


Russisch taalwonder 


Ook het Russische ABBYY timmert al jaren aan 
de weg van de tekstherkenning. Het bedrijf in 
Moskou is sinds 1989 gespecialiseerd in kunst- 
matige intelligentie, OCR en toegepaste linguïs- 
tiek. FineReader 9.0 herkent 179 talen, het 
meeste van de drie pakketten. Na de installatie 
vinden we in de programmamap niet alleen de 
toepassing, maar ook een map met SNELLE TAKEN. 
Hiermee kan je een foto of tekst onmiddellijk 


Á The Intelligent OCR 


Professionals’ choice for superior accuracy 
In document and PDF conversion 


= 


FineReadero0 


Professional Edition 


omzetten in een Word-document, pdf-bestan- 
den converteren naar Word (of omgekeerd), 
een afbeelding scannen of een tabel vertalen 
naar Microsoft Excel. Tijdens onze tests had het 
programma wel problemen met het herkennen 
van klein gedrukte tekst. Gelukkig gaf de toe- 
passing zelf aan dat de nauwkeurigheid aan- 
zienlijk verbetert door de scanresolutie te ver- 
hogen van de normale 300 dpi naar 600 dpi of 
hoger. ABBYY FineReader g.0 herkent ook auto- 
matisch de taal of verschillende talen waaruit 
een document is opgebouwd. Wil je de taalse- 
lectie toch in eigen handen houden, dan open 
je via Meer TALEN de TaaL Eprror. 


Screenshots lezen 


ABBYY FineReader 9.0 bevat een nieuwe tech- 
nologie die luistert naar de ronkende naam 
‘Adaptive Document Recognition Technology’ 
(ADRTTM). Dankzij deze techniek zou de opmaak 
van een document behouden blijven, maar ons 
kon het niet overtuigen. Teksten en afbeeldin- 
gen converteren verliep uitstekend, maar bij de 
opmaak ging het behoorlijk fout. 

Het is ook mogelijk om OCR toe te passen op 


beelden van een digitale camera. Het pakket 
komt trouwens met een handige functie, de 
ABBYY Screenshot Reader, die de tekst en af- 
beeldingen van schermafbeeldingen netjes om- 
zet in Word of Excel. FineReader werkt erg 
prettig, omdat de interface opzettelijk heel 
eenvoudig is gehouden. Het resultaat in pdf is 
echter minder nauwkeurig dan bij de andere 
twee programma’s. Bovendien is het ook iets 
trager. 
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… Herkent maar liefst 179 talen, handige 
Screenshot Reader 
v De beloofde opmaakherkenning stelt teleur 


http://finereader.abby.com 


De prijzen bij de producten zijn richtprij- 
zen die door de producent zelf zijn door- 
gegeven. Toch blijken de meeste pakketten 
in de winkel een pak goedkoper. Readiris 
Pro was in een bepaalde shop zelfs twee 
derde goedkoper dan de aangegeven prijs. 


In plees van de muur van orwe buurrren ke be- 


OCR is heel wat geëvolueerd de laatste ja- 
ren. Zo is de intervalfunctie van Readiris 
Pro een nuttige vondst om grote hoeveel- 
heden tekst efficiënt te verwerken, en be- 
wijst ABBYY dat je niet alleen ingescande 
tekst kan omzetten, maar ook pakweg 
screenshots. Alle geteste pakketten zijn 
heel goede tekstherkenners. Op het vlak 
van snelheid springt Nuance OmniPage 16 
er uit. We zijn daarbij afgegaan op de mo- 
gelijkheden van de standaardversie. Het 
inscannen en omzetten gaat gewoon vlug- 
ger en bovendien kan je gelijksoortige do- 


cumenten met één knop op dezelfde ma- 
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nier verwerken. Bovendien werkt dit pakket 


ook erg nauwkeurig, zodat we OmniPage 16 
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uitroepen tot Clickx keuze. « 


